Vorhersagemodellierung

Bedingt ähnlich zu Glaskugel-Lesen

Sebastian Sauer

Letzte Aktualisierung: 2022-03-21 15:33:00


WORK IN PROGRESS


Allison Horst, CC-BY

1 Was Sie hier lernen und wozu das gut ist

In diesem Modul lernen Sie das Handwerk der Prognose: Auf Basis von Fakten (Daten) den (noch unbekannten) Wert einer Zielvariablen vorherzusagen. Zum Beispiel wieviel Umsatz von einem Kunden mit einem bestimmten Profil im Schnitt zu erwarten ist. Damit lernen Sie die Grundkompetenzen zum Berufsbild Data Scientist – ein angesagtes Berufsbild unserer Zeit. Außerdem lernen Sie etwas Handwerkszeug der (quantitativen) Forschung; der überwältigend große Teil der Forschung basiert auf Ideen, von denen Sie ein paar in diesem Kurs lernen.

Ansprache zur Motivation

2 Modulüberblick

Kurswoche KW Titel Wochenbeginn_Datum
1 11 ERRRstkontakt 2022-03-14
2 12 Datenimport 2022-03-21
3 13 Datenjudo 2022-03-28
4 14 Deskriptive Statistik, Teil 1 2022-04-04
5 15 Deskriptive Statistik, Teil 2 2022-04-11
6 16 Aufholwoche 2022-04-18
7 17 Praxisprobleme der Datenaufbereitung 2022-04-25
8 18 Datenvisualisierung 2022-05-02
9 19 Fallstudie zur EDA 2022-05-09
10 20 Modellieren 2022-05-16
11 21 Regression 2022-05-23
12 23 Wiederholung 2022-06-06
13 24 Fallstudie zur Regression 2022-06-13
14 25 Klassifikation 2022-06-20
15 26 Vertiefung 2022-06-27

3 Hinweise

Lesen Sie sich die folgenden Informationen bitte gut durch.

Hinweise

4 Modulliteratur

Ein Teil der Literatur ist über viele Hochschulbibliotheken als PDF herunterladen; andere Titel sind offen im Internet verfügbar. Oft müssen Sie per VPN angemeldet sein für Volltextzugriff, wenn Sie nicht auf dem Campus sind.

5 Vorbereitung vor dem Kurs

5.1 Installation von R und seiner Freunde

  • Installieren Sie R und seine Freunde.
  • Installieren Sie die folgende R-Pakete:
    • tidyverse
    • weitere Pakete werden im Unterricht bekannt gegeben (es schadet aber nichts, jetzt schon Pakete nach eigenem Ermessen zu installieren)

5.2 Videos

Auf meinem YouTube-Kanal finden Sie eine Menge Videos, die zum Stoff passen.

  • QM1-Playlist - Allgemeine Playlist mit allen Videos zu QM1 (SoSe 2022)

5.3 Lernhilfen

6 Themen

6.1 ERRRstkontakt

6.1.1 KW

11

6.1.2 ID

1

6.1.3 Kurswoche

1

6.1.4 Wochenbeginn_Datum

2022-03-14

6.1.5 Lernziele

  • Sie kennen zentrale Begriffe im Kontext der Datenanalyse.
  • Sie können den Unterschied zwischen Signal und Rauschen erklären.
  • Sie können zentrale Kompetenzen im Berufsfeld Data Science nennen.
  • Sie können R starten (installieren).
  • Sie wissen, was R-Pakete sind und können sie installieren und starten.
  • Sie können grundlegende Operationen in R durchführen, wie Variablen zuweisen und auslesen.

6.1.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. die Videos an.
  • Installieren Sie R, RStudio und die benötigten Pakete, falls noch nicht getan. Alternativ können Sie sich ein Konto bei RStudio Cloud anlegen und das RStudio Cloud Projekt zu diesem Modul nutzen (dann benötigen Sie keine Installation von R auf Ihrem Computer).

6.1.7 Literatur

  • MODAR, Kap. 1-4

6.1.8 Skript

6.1.10 Syntax

6.1.11 Fallstudien

6.1.12 Aufgaben

  • Stellen Sie das Berufsbild ‘Data Scientist’ vor!
  • Erstellen Sie ein Meme zum Thema Statistik bzw. Data Science!
  • Erklären Sie die Installation von R (und seiner Freunde)!
  • Erklären Sie, was man in der Mathe unter einer Funktion versteht!
  • Fassen Sie die Literatur zum heutigen Thema zusammen (z.B. im Rahmen eines Mindmaps oder einer geteilten Dokuments)!

6.1.14 Hinweise

  • Bitte beachten Sie die Hinweise zum Präsenzunterricht und der Streamingoption.
  • Bitte stellen Sie sicher, dass Sie einen einsatzbereiten Computer haben und dass die angegebene Software läuft.

6.2 Datenimport

6.2.1 KW

12

6.2.2 ID

2

6.2.3 Kurswoche

2

6.2.4 Wochenbeginn_Datum

2022-03-21

6.2.5 Lernziele

  • Sie können Daten (verschiedener Formate) in R importieren.
  • Sie kennen einige Datenstrukturen in R.
  • Sie wissen, was ‘tidy Data’ ist.
  • Sie können ‘unaufgeräumte’ Datensätze bereinigen.

6.2.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. die Videos an.

6.2.7 Literatur

6.2.9 Syntax

6.2.10 Fallstudien

6.3 Datenjudo

6.3.1 KW

13

6.3.2 ID

3

6.3.3 Kurswoche

3

6.3.4 Wochenbeginn_Datum

2022-03-28

6.3.5 Lernziele

  • Sie können Daten in R aufbereiten mit dem Tidyverse.

6.3.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.3.7 Literatur

  • MODAR, Kap. 7

6.3.8 Videos

6.3.9 Syntax

6.3.10 Fallstudien

6.4 Deskriptive Statistik, Teil 1

6.4.1 KW

14

6.4.2 ID

4

6.4.3 Kurswoche

4

6.4.4 Wochenbeginn_Datum

2022-04-04

6.4.5 Lernziele

  • Sie beherrschen grundlegende Operationen der univariaten deskriptiven Statistik sowohl für Lage- als auch Streuungsmaße.

6.4.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.4.7 Literatur

  • MODAR, Kap. 8

6.4.9 Syntax

6.4.10 Fallstudien

6.4.11 Hinweise

  • In dieser Woche fällt die Übung aus (Ostern)

6.5 Deskriptive Statistik, Teil 2

6.5.1 KW

15

6.5.2 ID

5

6.5.3 Kurswoche

5

6.5.4 Wochenbeginn_Datum

2022-04-11

6.5.5 Lernziele

  • Sie verstehen die Grundkonzepte der Korrelation und können diese in R berechnen.

6.5.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.5.7 Literatur

  • MODAR, Kap. 8

6.5.9 Syntax

6.5.10 Fallstudien

6.5.11 Hinweise

6.6 Aufholwoche

6.6.1 KW

16

6.6.2 ID

6

6.6.3 Kurswoche

6

6.6.4 Wochenbeginn_Datum

2022-04-18

6.6.5 Lernziele

  • Sie vertiefen Ihr Wissen in den bisher gelernten Themen.
  • Sie schließen etwaige Lernlücken individuell und selbständig.

6.6.6 Syntax

6.6.7 Fallstudien

6.6.8 Hinweise

  • In dieser Woche fällt die Vorlesung aus (Ostern).

6.7 Praxisprobleme der Datenaufbereitung

6.7.1 KW

17

6.7.2 ID

7

6.7.3 Kurswoche

7

6.7.4 Wochenbeginn_Datum

2022-04-25

6.7.5 Lernziele

  • Sie wissen mit typischen Problemen der Datenaufbereitung umzugehen, wie mit fehlenden Werten, Datenanomalien oder Formatänderung der Tabelle.
  • Sie kennen die grundlegenden Eigenschaften der Normalverteilung.

6.7.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.7.7 Literatur

  • MODAR, Kap. 9

6.7.9 Syntax

6.7.10 Fallstudien

6.8 Datenvisualisierung

6.8.1 KW

18

6.8.2 ID

8

6.8.3 Kurswoche

8

6.8.4 Wochenbeginn_Datum

2022-05-02

6.8.5 Lernziele

  • Sie können Daten visualisieren, um wesentliche Einsichten zu vermitteln.

6.8.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.8.7 Literatur

6.8.9 Syntax

6.8.10 Fallstudien

6.9 Fallstudie zur EDA

6.9.1 KW

19

6.9.2 ID

9

6.9.3 Kurswoche

9

6.9.4 Wochenbeginn_Datum

2022-05-09

6.9.5 Lernziele

  • Sie können die gelernten Techniken der explorativen Datenanalyse praktisch anwenden.

6.9.6 Vorbereitung

  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.9.7 Literatur

  • NA

6.9.8 Videos

6.9.9 Syntax

6.9.10 Fallstudien

6.10 Modellieren

6.10.1 KW

20

6.10.2 ID

10

6.10.3 Kurswoche

10

6.10.4 Wochenbeginn_Datum

2022-05-16

6.10.5 Lernziele

  • Sie verstehen die Methoden des Modellierens.

6.10.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.10.7 Literatur

  • MODAR, Kap. 15

6.10.9 Syntax

6.10.10 Fallstudien

6.11 Regression

6.11.1 KW

21

6.11.2 ID

11

6.11.3 Kurswoche

11

6.11.4 Wochenbeginn_Datum

2022-05-23

6.11.5 Lernziele

  • Sie verstehen die Grundkonzepte der Regression und können diese in R anwenden.

6.11.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.11.7 Literatur

  • MODAR, Kap. 18

6.11.8 Skript

  • NA

6.11.10 Syntax

6.11.11 Fallstudien

6.11.12 Aufgaben

  • NA

6.11.14 Hinweise

  • Nächste Woche ist Blockwoche; es findet kein regulärer Unterricht statt.
  • Diese Woche fällt die Übung aus.

6.12 KEIN UNTERRICHT in dieser Woche

6.12.1 KW

22

6.12.2 ID

12

6.12.3 Kurswoche

11

6.12.4 Wochenbeginn_Datum

2022-05-30

6.12.5 Syntax

6.12.6 Fallstudien

6.13 Wiederholung

6.13.1 KW

23

6.13.2 ID

13

6.13.3 Kurswoche

12

6.13.4 Wochenbeginn_Datum

2022-06-06

6.13.5 Lernziele

  • Sie vertiefen Ihr Wissen in den bisher gelernten Themen.

6.13.6 Syntax

6.13.7 Fallstudien

6.13.8 Hinweise

  • In dieser Woche fällt die Vorlesung aus (Pfingsten).

6.14 Fallstudie zur Regression

6.14.1 KW

24

6.14.2 ID

14

6.14.3 Kurswoche

13

6.14.4 Wochenbeginn_Datum

2022-06-13

6.14.5 Lernziele

  • Sie können die gelernten Techniken der Regressionsanalyse praktisch anwenden.

6.14.6 Vorbereitung

  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.14.7 Literatur

  • NA

6.14.8 Videos

6.14.9 Syntax

6.14.10 Fallstudien

6.14.11 Aufgaben

6.15 Klassifikation

6.15.1 KW

25

6.15.2 ID

15

6.15.3 Kurswoche

14

6.15.4 Wochenbeginn_Datum

2022-06-20

6.15.5 Lernziele

  • Sie verstehen die Grundkonzepte der logistischen Regression und können diese in R anwenden.

6.15.6 Vorbereitung

  • Lesen Sie die Literatur.
  • Sehen Sie sich ggf. das Video zum Folienskript an.

6.15.7 Literatur

  • MODAR, Kap. 19

6.15.8 Syntax

6.15.9 Fallstudien

6.16 Vertiefung

6.16.1 KW

26

6.16.2 ID

16

6.16.3 Kurswoche

15

6.16.4 Wochenbeginn_Datum

2022-06-27

6.16.5 Lernziele

  • Sie erwerben tieferes Wissen in den Stoffgebieten dieses Kurses.

6.16.6 Syntax

6.16.7 Fallstudien

6.16.8 Hinweise

  • Nach dieser Woche endet der Unterricht.

7 Prüfung

7.1 Was ist das für eine Prüfung?

Bei der Prüfung handelt es sich um einen Prognosewettbewerb.

7.2 Hinweise zur Prüfung

  • Hinweise zur Prüfung
  • Einfache, beispielhafte Vorhersagemodellierung (Video)
  • Der gesamte Stoff, der im Unterricht behandelt bzw. für den Kurs bereitgestellt ist, ist prüfungsrelvant. Eine Ausnahme ist, wenn bestimmte Inhalte explizit als “nicht prüfungsrelevant” gekennzeichnet sind.
  • Denken Sie daran, sich rechtzeitig zu den Prüfungsleistungen anzumelden. Beachten Sie, dass die Fristen für Anmeldung und Abgabe (Hochladen der Prüfungsleistung) unterschiedlich sein können.

8 Literaturverzeichnis

Çetinkaya-Rundel, M. and J. Hardin (2021). Introduction to Modern Statistics. OpenIntro. OpenIntro.

Knorrenschild, M. (2021). Vorkurs Mathematik: ein Übungsbuch für Fachhochschulen. 5., aktualisierte Auflage. Mathematik - Studienhilfen. Hanser. 164 pp.

Sauer, S. (2019). Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren und modellieren. 1. Auflage 2019. FOM-Edition. Springer.

Wickham, H. and G. Grolemund (2018). R für Data Science: Daten importieren, bereinigen, umformen, modellieren und visualisieren. Trans. by F. Langenau. 1. Auflage. O’Reilly. 473 pp.

9 Kudos

Beim Schreiben dieses Kurses habe ich auf der Vorarbeit vieler Menschen aufgebaut. Viele Menschen haben mich unterstützt, großzügig und auf verschiedene Weise.

Einige möchte ich herausgreifen, um Danke zu sagen:

  • Kollegis wie Karsten Lübke, von denen ich viel gelernt habe.
  • Alle Open-Source-Entwickler, die Projekte wie dieses überhaupt erst möglichen machen. 💌